ChatGPT之外，美国大模型搞到什么程度了？

通过行业应用先行来带动整体的突破。

文 | 华商韬略王梦欣

年初以来，OpenAI以ChatGPT在全球掀起AI大模型热潮。但美国的AI大模型，远不止于OpenAI的ChatGPT。

【井喷式发展】

综合各种数据，虽然中国发展势头迅猛，但美国依然是全球发布大模型最多的国家，到2023年5月，其10亿级参数规模以上的基础大模型就已突破100 个。

《经济学人》报道，美国2022年大模型投资总额达474亿美元，是第二名中国（134亿美元）的约3.5倍，且仍保持激增态势。高盛则进一步预测，美国2025年大模型相关投资可达千亿美元，约全球的1/2。

高盛的调查显示，罗素3000指数公司中有16%的公司在2023年的财报会议中提到了大模型，其经济学家估计，大模型将在十年内提高1%的整体劳动生产率，并为标普500指数带来约14%的增长。

除了ChatGPT，美国如今具有代表性的通用大模型公司还包括：Anthropic、Cohere以及Google等。

其中，由OpenAI前高管Dario和Daniela Amodei等人于2021年自立门户创办的Anthropic，目前估值已达300亿美元，是仅次于OpenAI（约860亿美元估值）的通用大模型企业。

Anthropic拥有多位参与过GPT-2与GPT-3研发的前OpenAI核心员工，其大模型产品Claude2也被认为是仅次于ChatGPT-4的经典力作，甚至有分析师认为，Claude2的性能优于ChatGPT-4。

比如，Claude2可以处理多达约75000个单词的数据集，而ChatGPT大约是3000个，这意味着它可以处理和输出更复杂的内容，也被应用到更有挑战性的领域，比如生成数千字的长文内容。

更让Claude2积攒人气的是，它直接免费向公众开放，而不是像GPT-4一样需要付费使用。

优秀的创始团队和强大的产品性能，让Anthropic备受资本追捧，谷歌、韩国最大移动运营商之一SK Telecom（SKT）、亚马逊都已成为其投资者，其中仅亚马逊的投资就高达40亿美元。

在Anthropic之外，还有一家令人称道的公司便是Cohere。

今年6月，2019年创立的Cohere获得NVIDIA、Oracle、Salesforce Ventures等投资的2.7亿美元，成为估值20亿美元的独角兽，也是估值仅次于OpenAI和Anthropic的基础大模型公司。

Cohere同样以强大创始团队备受业内瞩目，其创始人之一Aidan Gomez是大语言模型领域开创性论文《Attention is All You Need》的最年轻作者，正是这篇文章首次提出了著名的Transformer架构，成为通用大模型发展的基础模型，ChatGPT就是在这一架构的基础上诞生。

▲Cohere推出的第一个生成式AI应用Coral

Cohere与OpenAI提供的产品类似，但它看到了“数据隐私”这个市场机会，将自己与OpenAI的定位区分开来，选择了ToB赛道，坚定地走商用大模型的路线。其产品基础能力包括三大类：文本检索，文本生成和文本分类，并且可针对客户需求，强调安全性，隐私以及定制化服务。

Cohere的另一大卖点是，不受任何云端平台限制，进而保障资料的私密安全性。它提供灵活性存储和资料隐私保护路径，可使用户实现本地部署，以满足客户资料存储不同位置的需求。

Cohere能迅速转向，找到自己的差异化定位，离不开Aidan及其联合创始人独特的人才观和创业哲学。

Aidan曾表示，Cohere寻找不同背景但对AI非常感兴趣并富有雄心的人：他不一定有大公司的漂亮履历，但是一定要对自己专注的领域有非常高的兴趣和热情，而且不光会写论文，还要有实际动手的能力。

差异化的产品战略，与众不同的团队背景，让Cohere成为通用大模型领域的一股清流。

日前，Cohere发布了全球首个公开可用的多语言理解模型，该模型基于来自母语人士的真实数据进行训练，能够阅读和理解全球超过100种最常用的语言。

再来看巨头Google 。

12月6日，Google DeepMind重磅推出了多模态AI模型Gemini，可以同时横跨文字、图片、影音、程式码等多模态进行学习与理解。

以客服机器人的应用为例，使用Gemini作为模型不仅能够从对话的字面意思上理解客户，更能同时从表情、声调接收到客户话语中的意图，能处理包括音讯、程式码、图像、视讯等内容。

据实测结果，Gemini是第一个在大模型多任务语言理解上超越人类专家的模型，且在32项AI测试中，有30项测验结果超过GPT-4。

凭借强大的性能，Gemini迅速出圈，并且为其母公司Alphabet创造巨大声量。12月7日，Google 母公司Alphabet股价涨幅5.31%，收于136.93美元，总市值达到1.72万亿美元。Google 则计划逐步将这一模型融合进其搜索、广告等其他服务中。

但谈到美国大模型，更值得重视的还是其在产业中的应用进展以及未来想象。

【加速产业落地】

斯坦福大学发布的《2023年人工智能索引报告》中显示，2022年，美国的35个大模型中，只有3个大模型来自于实验室，32个都诞生于产业中。今年，也仍然保持着这一趋势。

2023年3月30日，当外界还沉浸在通用大模型涌现的狂欢中，彭博社凭一己之力将众人的注意力集中到行业新赛道。当天，它对外宣称，自己已构建出迄今为止最大的金融领域数据集，训练了专门用于金融领域大语言模型的LLM，并开发了拥有500亿参数的语言模型——BloombergGPT。

顶着全球首个金融大模型的光环，BloombergGPT依托彭博社大量的金融数据源，构建了一个3630亿个标签的数据集。高金智库分析，它可极大提高金融机构的工作效率及稳定性，协助降本增效。

在降本层面，BloombergGPT可以在投研、研发编程、风险控制及流程管理等方面减少人员投入；增效层面，它既可以通过给定的主题和语境，自动生成高质量的金融报告、财务分析报告及招股书，同时辅助会计和审计方面的工作，还可提炼梳理财经新闻或者财务信息，释放专业人力到更需要人工专业的领域。

天风证券则在报告中指出，由于BloombergGPT比ChatGPT拥有更专业的训练语料，它将在金融场景中表现出强于通用大模型的能力，进而也标志着金融领域的GPT革命已经开始。

BloombergGPT只是一个典型案例，目前，美国金融大模型已呈现出明显的三个“流派”：一是独立全栈自研，强调自主可控；二是在他人的基础上结合自身数据与场景微调，形成契合自身的金融大模型；三是从云端调用，按需接入各类大模型API做私有化部署，科技基础薄弱的中小型金融公司多采用这类方式。

据有关统计数据，美国金融AI约占整体AI领域融资的6.7%。

医疗行业，是美国大模型落地应用的另一片热土，谷歌、微软等科技巨头， Sensely、Enlitic等医疗科技公司，AbSci、Exscientia等生物医药初创企业，以及赛纽仕等CXO（医药外包）企业，都已参与其中。

化合物合成、靶点发现等新药研发业务，电子病历、辅助问诊等医院诊疗业务，则是美国医疗大模型应用的常用场景，CT（电脑断层扫描）、MRI（磁共振成像）等医疗器械在大模型赋能下进一步增强。

众多医疗大模型中，谷歌的Med-PaLM2是被关注的重点。它是第一个在美国医师执照考试（USMLE）的MEDQA数据集上达到“专家”考生水平的大模型，其准确率达85分以上；也是第一个在包括印度AIIMS和NEET医学考试问题的MEDMCQA数据集上达到及格分数的人工智能系统，得分为72.3分。

Med-PaLM2也正对行业带来变革性影响。

通过Med-PaLM2，可以分析大规模的生物医药数据，发现与疾病相关的基因、蛋白质和代谢途径，识别潜在的靶点，帮助筛选具有潜在活性的药物分子，从而缩小候选药物的范围，并优先选择具有较高活性的化合物进行后续实验验证。备受时间煎熬的新药研发，则将因此缩短研发周期，降低研发成本。

Med-PaLM2的成功，还刺激谷歌在医疗大模型领域投入

云奕文章网

ChatGPT之外，美国大模型搞到什么程度了？

相关推荐：